UNAL

Autor





SENTIMENT ANALYSIS WITH 1.6 MILLION TWEETS

Sentiment Analysis.


Paquetes y Librerías


Lectura y Tratamiento de los Datos

Cambiando la codificación a $(0 := \texttt{Negative}, 1 := \texttt{Positive})$, por cuestiones de interpretabilidad.


Preliminares Indispensables

Stop Words: Una Stop Word es una palabra de uso común (como "el", "a", "una", "en") que un motor de búsqueda ha sido programado para ignorar, tanto al indexar entradas para buscarlas como al recuperarlas. Como resultado de una consulta de búsqueda.

Limpieza de los datos

Análisis descriptivo

TF-IDF

Este es un acrónimo que significa Term Frequency - Inverse Document, que son los componentes de las puntuaciones resultantes asignadas a cada palabra.

Tokenización

División del conjunto de entrenamiento y de prueba

Función de evaluación del modelo


$\texttt{Modelo Logístico}$


$\texttt{Linear SVM}$


$\texttt{Random Forest}$


$\texttt{Naive Bayes}$


$\texttt{RNN}$

Modelo Accuracy (%)
Logístico 73.630
SVM 72.420
Random Forest 70.210
Naive Bayes 72.600
RNN 73.230


TWITTER US AIRLINE SENTIMENT

Sentiment Analysis of Airline Tweets.

Los datos provienen originalmente de la biblioteca Data for Everyone de Crowdflower. En el cual se realizó un trabajo de análisis de sentimientos sobre los problemas de cada una de las principales aerolíneas de EE. UU. Los datos de Twitter se extrajeron de febrero de $2015$ y se pidió a los colaboradores que primero clasificaran los tweets positivos, negativos y neutrales, seguidos de categorizar las razones negativas (como "retraso en el vuelo" o "servicio grosero").




Lectura y Tratamiento de los Datos


Preliminares Indispensables

Análisis descriptivo

Tokenización


$\texttt{Modelo FastText}$

División del conjunto de entrenamiento y de prueba


$\texttt{Modelo Logístico}$


$\texttt{Linear SVM}$


$\texttt{Random Forest}$


$\texttt{Naive Bayes}$

Modelo Accuracy (%)
Logístico 78.279
SVM 77.117
Random Forest 69.057
Naive Bayes 72.439